
\chapter{引言}\label{chap:introduction}

\section{研究背景和意义}\label{sec:background}

随着互联网浪潮的推进，在近几年互联网用户急速攀升，
据中国互联网络信息中心\footnote{http://www.cnnic.net.cn/，访问时间2021年12月24日}统计，
2018年至2021年间，中国网民数量从57.7\%提升到71.6\%，规模达到10.07亿，
同时其中99.6\%的网民使用手机上网。快速增长的网民群体，
尤其是手机网民群体促进了移动互联网的快速发展，这同时也使用户生成内容(User Generated Content)种类和数量的大幅上升。
从最早的博客、微博，到后来的公众号、UP主，再到现在占据主流的短视频，UGC的内容丰富度越来越高，
创作门槛也在逐步降低。曾经需要内容生产者到台式电脑前剪辑、编辑才能创作，
变为了任何人使用手机就能快速制作不同风格的作品。

UGC内容的快速增加，对内容分发平台提出了挑战。平台需要充分利用不同模态的大规模UGC内容，
发掘内容之间的联系。
以目前流行的短视频平台为例，一个短视频包含视频本身、标题、标签、评论等图文信息，
是一种典型的多模态数据源。在一个短视频的生命周期中，有大量的任务需要依赖对短视频的图文理解和模态关联。
例如在视频创作阶段，视频制作平台需要根据用户填写的短视频标题和拍摄内容，向用户推荐热门标签和图文素材。
同时，平台也需要对视频内容进行安全、合规审查。
在视频上线后，平台需要将视频推荐给合适的用户，在搜索时能够准确查找相关视频，发现热点视频，
以及利用视频信息提高相关广告和电商推送质量。
这一切都离不开对短视频多模态数据的分析和融合。只有同时利用多个模态的数据，
才能更好的发掘视频的完整信息，同时支持跨模态的查询、理解，提升平台质量。

在计算机视觉和自然语言处理方向，深度神经网络已经成为了主流的方法。
然而，如何融合学习视觉模态和文本模态的内容并未被充分的研究。
随着UGC内容的快速增加，该问题的重要性也得到了学术界和工业界的广泛关注。

多模态融合学习具有以下重要优势：

\begin{itemize}
    \item 通过融合多个模态的数据，模型得到的表示相较单模态具有更丰富的特征层次。
    \item 融合了多模态数据，从而可以完成跨模态的下游任务。
    \item 在数据存在模态缺失时，模型能够通过其他模态产生信息互补。
\end{itemize}

多模态融合学习也具有以下关键难点：

\begin{itemize}
    \item 如何处理来自不同模态的异构输入，并得到统一表示。
    \item 如何使语义相近数据的向量表示在特征空间中也相近。
    \item 在模态缺失的情况下，如何利用已有模态数据得到较完整的特征表达，以及补全缺失模态。
\end{itemize}

本文对今年图文模态融合的工作开展了调研，总结了目前的研究现状，并探讨了该问题的未来研究方向。

本文的论文结构如下：

\begin{itemize}
    \item 第\ref{chap:related}章介绍了计算机视觉和自然语言处理方向近年来的重点工作。
    多模态算法大多基于这两个方向上的先进工作，并着重研究模态间的融合方式，
    因此是进行多模态问题研究的重要基础。
    \item 第\ref{chap:definition}章给出了多模态融合学习的问题定义，
    介绍了常见模态数据来源和下游任务场景。
    \item 第\ref{chap:survey}章从模型结构、目标问题、使用方法、数据源四个方面归纳总结目前的多模态融合工作。
    \item 第\ref{chap:conclusion}章对多模态问题及其方法进行总结，并探讨了未来工作方向。
\end{itemize}

\begin{comment}

\section{研究内容与技术路线}

\subsection{信号灯控制问题概述}

\end{comment}
